CODA-BENCH: Evaluación de agentes autónomos en tareas de datos
Evalúa agentes de código con CODA-BENCH: 1009 tareas en entornos de datos masivos. Solo el 61% de éxito actual. Descubre las brechas en inteligencia artificial.
Evalúa agentes de código con CODA-BENCH: 1009 tareas en entornos de datos masivos. Solo el 61% de éxito actual. Descubre las brechas en inteligencia artificial.